无数据知识蒸馏(KD)允许从训练有素的神经网络(教师)到更紧凑的一个(学生)的知识转移在没有原始训练数据。现有的作品使用验证集来监视学生通过实际数据的准确性,并在整个过程中报告最高性能。但是,验证数据可能无法在蒸馏时间可用,使得记录实现峰值精度的学生快照即可。因此,实际的无数据KD方法应该是坚固的,理想情况下,在蒸馏过程中理想地提供单调增加的学生准确性。这是具有挑战性的,因为学生因合成数据的分布转移而经历了知识劣化。克服这个问题的直接方法是定期存储和排练生成的样本,这增加了内存占据措施并创造了隐私问题。我们建议用生成网络模拟先前观察到的合成样品的分布。特别地,我们设计了具有训练目标的变形式自动化器(VAE),其定制以最佳地学习合成数据表示。学生被生成的伪重播技术排练,其中样品由VAE产生。因此,可以防止知识劣化而不存储任何样本。在图像分类基准测试中的实验表明,我们的方法优化了蒸馏模型精度的预期值,同时消除了采样存储方法产生的大型内存开销。
translated by 谷歌翻译